년 4분기 AI 및 로봇 연구 동향
1. 서론: 2011년, AI 혁명의 전야
1.1 년 4분기의 기술적 맥락
2011년 4분기는 인공지능(AI) 역사에서 중대한 변곡점으로 기록된다. 이 시기는 2012년 AlexNet의 등장으로 촉발된 딥러닝 혁명의 직전 단계로서, 향후 10년간 AI 기술의 지형을 완전히 바꿀 핵심 요소들이 조용히 수렴하던 결정적 시점이었다. 알고리즘의 진보, 대규모 데이터의 활용 가능성 증대, 그리고 하드웨어 가속 기술의 부상이 바로 그것이다.1 이 시기 학계는 서포트 벡터 머신(SVM), 희소 코딩(Sparse Coding), 그래프 모델(Graphical Models) 등 정교한 통계 기반 기계 학습 방법론이 정점에 달해 있었다. 동시에, 구글과 같은 소수의 산업계 연구 그룹을 중심으로 대규모 신경망의 잠재력이 재조명되기 시작하며 새로운 패러다임의 태동을 알리고 있었다. 따라서 2011년 4분기는 전통적 기계 학습의 성숙과 현대적 딥러닝의 여명이 교차하는 과도기적 특성을 명확히 보여준다.
1.2 주요 학술 및 산업 연구의 장
이러한 기술적 전환은 당대 최고의 학술대회와 산업 연구소에서 발표된 연구들을 통해 가장 명확하게 관찰할 수 있다. 2011년 4분기에는 AI 분야의 최고 권위 학회들이 연이어 개최되었다. 12월 스페인 그라나다에서 열린 신경정보처리시스템학회(NIPS, 현 NeurIPS)는 기계 학습과 계산 신경과학 분야의 가장 중요한 연구들이 발표되는 장이었다.3 11월 스페인 바르셀로나에서 개최된 국제 컴퓨터 비전 학회(ICCV)는 컴퓨터 비전 분야의 혁신적인 아이디어들이 경합하는 무대였다.5 9월 말 미국 샌프란시스코에서 열린 지능형 로봇 및 시스템 국제 학회(IROS)는 로봇 공학의 최신 기술과 시스템 통합의 성과를 공유하는 핵심적인 행사였다.7
특히 NIPS와 ICCV가 같은 시기에 지리적으로 인접한 스페인에서 개최된 것은 주목할 만하다.4 NIPS는 2001년부터 2010년까지 북미(밴쿠버)에서 개최되었기에, 2011년의 유럽 개최는 AI 연구의 저변이 전 세계적으로 확장되고 있음을 시사하는 상징적인 사건이었다.4 이러한 지리적 근접성은 기계 학습 커뮤니티와 컴퓨터 비전 커뮤니티 간의 아이디어 교류를 촉진하는 역할을 했을 가능성이 크다. 이는 딥러닝이라는, 두 분야를 아우르는 거대한 조류가 형성되기 직전에 매우 시의적절한 상호작용의 기회를 제공했다.
학계의 발전과 더불어, 산업계의 역할 또한 이 시기에 극적으로 부상했다. 2011년에 시작된 구글 브레인(Google Brain) 프로젝트는 대규모 비지도 학습의 가능성을 전 세계에 각인시켰고 2, 마이크로소프트 리서치(Microsoft Research)는 KinectFusion을 통해 실시간 3D 재구성 기술의 대중화를 이끌었다.9 이는 AI 연구의 주도권이 순수 학계를 넘어, 막대한 데이터와 컴퓨팅 자원을 보유한 산업계로 점차 이동하고 있음을 보여주는 명백한 신호였다.
1.3 보고서의 구조 및 목표
본 보고서는 2011년 4분기라는 결정적 시점에 발표된 AI 및 로봇 분야의 주요 연구 성과를 심층적으로 분석하고, 이들이 현대 AI 기술의 발전에 어떠한 영향을 미쳤는지 규명하는 것을 목표로 한다. 이를 위해 본 보고서는 연구 동향을 다음 네 가지 핵심 축으로 나누어 고찰한다.
- 기계 학습의 근본적 진보: 최적화 알고리즘, 표현 학습, 오픈소스 생태계의 발전을 중심으로 기계 학습의 내재적 성숙 과정을 분석한다.
- 컴퓨터 비전의 새로운 지평: 이진 분류를 넘어선 의미론적 이해와 실시간 3D 인식 기술의 등장을 통해 컴퓨터 비전의 패러다임 전환을 탐구한다.
- 로봇 공학의 발전: 단일 로봇 제어를 넘어 다개체 시스템과 인간-로봇 상호작용 등 복잡성이 증대되는 로봇 공학의 최신 동향을 조명한다.
- 산업계 연구 동향: 구글과 마이크로소프트를 중심으로 산업계가 어떻게 대규모 실험을 통해 AI 연구의 새로운 방향을 제시했는지 분석한다.
이 네 가지 축에 대한 분석을 통해, 2011년 4분기의 개별 연구들이 어떻게 상호작용하며 딥러닝 혁명의 기틀을 마련했는지 종합적으로 이해하고자 한다.
| 학회명 | 개최 기간 | 개최 장소 | 주요 분야 |
|---|---|---|---|
| IROS 2011 | 2011년 9월 25-30일 | 미국 샌프란시스코 | 지능형 로봇, 자동화 시스템 |
| ICCV 2011 | 2011년 11월 6-13일 | 스페인 바르셀로나 | 컴퓨터 비전, 패턴 인식 |
| Humanoids 2011 | 2011년 10월 26-28일 | 슬로베니아 블레드 | 휴머노이드 로봇 |
| NIPS 2011 | 2011년 12월 12-17일 | 스페인 그라나다 | 기계 학습, 계산 신경과학 |
2. 기계 학습의 근본적 진보: 최적화, 대규모 학습, 그리고 개방형 혁신
2011년은 딥러닝이라는 거대한 파도가 밀려오기 직전, 기계 학습 분야의 근본적인 체력이 길러지던 시기였다. 특히 4분기에는 최적화 알고리즘의 혁신, 표현 학습 패러다임의 부상, 그리고 연구의 민주화를 이끈 오픈소스 생태계의 확립이라는 세 가지 중요한 흐름이 관찰되었다. 이들은 각각 독립적인 성과처럼 보이지만, 실제로는 대규모 데이터를 효율적으로 처리하고, 데이터로부터 유의미한 표현을 학습하며, 이러한 기술을 널리 확산시키는 하나의 거대한 생태계를 형성하는 상호보완적인 관계에 있었다.
2.1 적응형 경사하강법의 등장: AdaGrad
2011년 기계 학습 분야의 가장 중요한 이론적 진보 중 하나는 John Duchi, Elad Hazan, Yoram Singer가 Journal of Machine Learning Research (JMLR)에 발표한 “Adaptive Subgradient Methods for Online Learning and Stochastic Optimization“에서 제시된 AdaGrad 알고리즘이었다.10 이 연구는 경사하강법 기반 최적화 알고리즘의 오랜 난제였던 학습률(learning rate) 설정 문제를 정면으로 다루었다.
기존의 확률적 경사하강법(Stochastic Gradient Descent, SGD)은 모든 파라미터(가중치)에 대해 동일한 전역 학습률 \eta를 적용했다. 이는 데이터의 특성을 고려하지 못하는 한계를 지녔다. 예를 들어, 자연어 처리나 추천 시스템에서 다루는 데이터는 매우 희소(sparse)하여, 어떤 특징(feature)은 매우 자주 등장하는 반면, 어떤 특징은 극히 드물게 나타난다. 이러한 상황에서 모든 특징에 동일한 학습률을 적용하면, 자주 등장하는 특징은 과도하게 업데이트되어 최적점을 지나치기 쉽고, 드물게 등장하는 특징은 충분히 학습되지 못하는 문제가 발생한다.
AdaGrad는 이 문제를 해결하기 위해 각 파라미터마다 개별적인 학습률을 적응적으로 조절하는 혁신적인 아이디어를 도입했다.10 핵심은 각 파라미터에 대해 과거의 그래디언트(gradient) 정보를 누적하여, 많이 변화한 파라미터의 학습률은 줄이고, 적게 변화한 파라미터의 학습률은 늘리는 것이다. t 시점에서 i번째 파라미터 x_{t, i}에 대한 업데이트 규칙은 다음과 같이 수식으로 표현된다.10
x_{t+1, i} = x_{t, i} - \frac{\eta}{\sqrt{G_{t,ii} + \epsilon}} g_{t,i}
여기서 \eta는 사용자가 설정하는 전역 학습률, g_{t,i}는 시점 t에서 파라미터 x_{t, i}에 대한 그래디언트이다. 핵심적인 부분은 분모에 있는 G_{t,ii}로, 이는 1 시점부터 t 시점까지 i번째 파라미터에 대한 그래디언트 제곱의 누적 합, 즉 G_{t,ii} = \sum_{\tau=1}^{t} g_{\tau,i}^2을 의미한다. \epsilon은 분모가 0이 되는 것을 방지하기 위한 매우 작은 상수이다.
이 수식의 의미는 명확하다. 만약 i번째 특징이 자주 등장하여 과거에 그래디언트 값이 컸다면, G_{t,ii} 값이 커져 분모가 증가하고, 결과적으로 해당 파라미터에 대한 유효 학습률(effective learning rate)은 작아진다. 반대로, 드물게 등장하여 그래디언트 값이 작았던 특징은 G_{t,ii} 값이 작아 유효 학습률이 상대적으로 커진다.11 이처럼 AdaGrad는 ‘드물지만 중요한’ 특징을 빠르게 학습하도록 촉진함으로써, 희소 데이터 환경에서 기존 SGD보다 훨씬 빠르고 안정적인 수렴을 가능하게 했다. 이 연구는 이후 등장할 RMSProp, Adam 등 거의 모든 현대적인 적응형 최적화 알고리즘의 사상적 토대가 되었다는 점에서 그 의의가 매우 크다.13
2.2 신경망 기반 자연어 처리의 서막
같은 해 JMLR에는 자연어 처리(NLP) 분야의 패러다임을 바꾼 또 하나의 기념비적인 논문이 발표되었다. Ronan Collobert, Jason Weston 등이 발표한 “Natural Language Processing (Almost) from Scratch“는 당시 NLP 연구의 주류였던 접근법에 정면으로 도전했다.15
2011년 이전의 NLP 시스템들은 품사 태깅(POS), 개체명 인식(NER), 의미역 결정(SRL) 등 각 과업(task)을 해결하기 위해, 언어학적 지식에 기반하여 수작업으로 설계된 정교한 특징(hand-crafted features)에 크게 의존했다.19 이는 각 과업마다 새로운 특징 집합을 설계해야 하는 비효율성을 낳았고, 시스템 간의 복잡한 의존성을 야기했다.
Collobert와 Weston의 연구는 이러한 ’과업별 특징 공학(task-specific feature engineering)’의 시대를 끝내고, ’표현 학습(representation learning)’의 시대를 여는 신호탄이었다.21 그들의 핵심 아이디어는 두 가지로 요약된다. 첫째, 단어를 저차원의 밀집 벡터(dense vector), 즉 ’워드 임베딩(word embedding)’으로 표현하는 것이다. 둘째, 이 워드 임베딩을 대규모의 레이블 없는(unlabeled) 텍스트 데이터를 이용한 언어 모델 학습을 통해 미리 학습(pre-training)하고, 이렇게 학습된 표현을 여러 NLP 과업에 공유하여 사용하는 것이다.16
그들은 위키피디아와 같은 방대한 텍스트를 이용하여 각 단어의 의미와 문법적 속성을 담은 벡터 표현을 학습했다. 그리고 이 사전 학습된 임베딩을 입력으로 사용하는 단일 심층 신경망(Deep Neural Network) 구조를 설계하여, 별도의 특징 공학 없이도 POS, NER, SRL 등 다양한 과업에서 당시 최고 수준(state-of-the-art)의 성능을 달성했다.17 이는 좋은 단어 표현만 학습한다면, 복잡한 언어학적 특징 없이도 기계가 스스로 문장의 구조와 의미를 파악할 수 있음을 실증적으로 보여준 것이다. 이 연구는 비지도 학습을 통해 얻은 지식을 특정 과업에 전이하는 ’전이 학습(transfer learning)’의 위력을 NLP 분야에서 본격적으로 입증한 사례로, 이후 Word2Vec, GloVe를 거쳐 BERT와 GPT 같은 현대 거대 언어 모델(LLM)의 근본적인 철학을 제시했다.
2.3 오픈소스 생태계의 확립: Scikit-learn
알고리즘과 모델링 패러다임의 발전이 연구의 ’내용’을 채웠다면, 연구의 ’방식’을 바꾼 것은 오픈소스 생태계의 확립이었다. 2011년 JMLR에 발표된 Fabian Pedregosa 외 다수의 “Scikit-learn: Machine Learning in Python“은 기계 학습 연구와 응용의 민주화에 결정적인 기여를 한 논문이다.22
당시 기계 학습 알고리즘을 사용하기 위해서는 전문적인 지식과 상당한 구현 노력이 필요했다. Scikit-learn은 분류, 회귀, 군집화 등 핵심적인 기계 학습 알고리즘들을 매우 일관되고 사용하기 쉬운 파이썬 API로 통합하여 제공했다.26 fit(), predict(), transform()이라는 단순한 인터페이스를 통해, 연구자나 개발자들은 복잡한 수학적 배경을 깊이 이해하지 못하더라도 손쉽게 최신 알고리즘을 자신의 데이터에 적용하고 실험할 수 있게 되었다.26
Scikit-learn의 등장은 여러 측면에서 파급 효과를 낳았다. 첫째, 연구의 재현성(reproducibility)을 크게 향상시켰다. 모든 연구자가 동일한 표준 구현체를 사용함으로써, 실험 결과를 비교하고 검증하는 것이 용이해졌다. 둘째, 비전문가들의 기계 학습 접근성을 획기적으로 낮추어, 컴퓨터 과학 이외의 다양한 학문 분야와 산업계에서 데이터 기반 분석이 확산되는 기폭제가 되었다.24 셋째, 이 논문 자체가 오픈소스 소프트웨어 프로젝트가 최고 수준의 학술적 기여로 인정받을 수 있음을 보여주는 중요한 선례가 되었다. 결과적으로 Scikit-learn은 NumPy, SciPy, Matplotlib과 함께 파이썬을 데이터 과학의 표준 언어로 자리매김하게 만들었으며, 이는 이후 TensorFlow나 PyTorch 같은 딥러닝 프레임워크가 파이썬을 기반으로 발전하는 토양이 되었다.23
이처럼 AdaGrad, “NLP from Scratch”, Scikit-learn이라는 세 편의 JMLR 논문은 2011년 기계 학습 분야의 세 가지 핵심 동력을 상징한다. AdaGrad는 대규모 희소 데이터를 다루기 위한 효율적인 **최적화 방법론(how)**을, “NLP from Scratch“는 데이터로부터 지식을 추출하는 새로운 **모델링 패러다임(what)**을, 그리고 Scikit-learn은 이러한 기술을 널리 확산시키는 **도구(tools)**를 제공했다. 이 세 요소의 시너지는 이후 AI 기술이 폭발적으로 성장할 수 있는 완벽한 생태계를 조성했다.
2.4 NIPS 2011의 기타 주요 연구 동향
NIPS 2011 학회에서는 이러한 거시적 흐름 속에서 다양한 세부 연구들이 발표되었다. 특히 희소 표현(sparse representation)과 저계급(low-rank) 행렬 분해에 기반한 비지도 학습 연구가 두드러졌다. Jiquan Ngiam 등의 “Sparse Filtering“은 별도의 확률 모델 없이 간단한 최적화만으로 유용한 특징을 학습하는 방법을 제안했으며 28, Andrew Waters 등의 “SpaRCS“와 Zhouchen Lin 등의 “Linearized Alternating Direction Method…“는 압축 센싱 이론에 기반하여 손상된 데이터로부터 저계급 및 희소 구조를 복원하는 강력한 알고리즘을 제시했다.28 이는 고차원 데이터에 내재된 본질적인 저차원 구조를 발견하려는 노력으로, 딥러닝이 주류가 되기 이전 시대의 핵심적인 비지도 학습 접근법이었다.
또한, 최우수 학생 논문상(Outstanding Student Paper Awards) 수상작들은 당시 학계의 주요 관심사를 잘 보여준다. Philipp Krähenbühl과 Vladlen Koltun의 “Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials“는 모든 픽셀 쌍을 연결하는 고밀도 조건부 확률장(CRF) 모델에서 효율적인 추론 알고리즘을 개발하여, 이미지 분할(image segmentation)의 정확도를 크게 향상시킨 연구다.29 Ardavan Saeedi와 Alexandre Bouchard-Côte의 “Priors Over Recurrent Continuous Time Processes“는 불규칙한 시계열 데이터를 모델링하기 위한 새로운 베이지안 비모수적 방법을 제안했다.28 이 두 연구는 복잡한 구조를 가진 데이터(이미지, 시계열)를 정교하게 모델링하려는 학계의 높은 관심을 반영한다.
| 논문 제목 | 저자 | 발표처 | 핵심 기여 | 장기적 영향 |
|---|---|---|---|---|
| Adaptive Subgradient Methods for Online Learning and Stochastic Optimization | Duchi, J., Hazan, E., & Singer, Y. | JMLR | 파라미터별 적응형 학습률(AdaGrad) 제안 | Adam 등 후속 최적화 알고리즘의 기반 |
| Natural Language Processing (Almost) from Scratch | Collobert, R., Weston, J., et al. | JMLR | 비지도 표현 학습 기반 통합 NLP 프레임워크 | 현대 NLP의 전이학습/임베딩 패러다임 초석 |
| Scikit-learn: Machine Learning in Python | Pedregosa, F., Varoquaux, G., et al. | JMLR | 사용하기 쉬운 고품질 오픈소스 ML 라이브러리 | 파이썬 ML 생태계 표준화 및 연구 민주화 |
| Sparse Filtering | Ngiam, J., Chen, Z., et al. | NIPS | 간단한 최적화 기반 비지도 희소 피처 학습 | 딥러닝 이전 시대의 대표적 피처 학습 기법 |
| Efficient Inference in Fully Connected CRFs… | Krähenbühl, P., & Koltun, V. | NIPS | 고밀도 CRF의 효율적 추론 알고리즘 | 정교한 이미지 분할 및 후처리 기술 발전 |
3. 컴퓨터 비전의 새로운 지평: 상대적 속성 인식과 실시간 3D 재구성
2011년 4분기 컴퓨터 비전 분야에서는 두 개의 상징적인 연구가 발표되었다. 하나는 기계가 시각 세계를 이해하고 묘사하는 방식에 대한 근본적인 질문을 던진 알고리즘적 혁신이었고, 다른 하나는 물리적 세계의 기하학적 구조를 실시간으로 포착하는 시스템적 돌파구였다. ICCV 2011에서 Marr Prize를 수상한 “Relative Attributes“는 의미론적 이해의 깊이를 더했으며, 마이크로소프트 리서치의 KinectFusion은 3차원 기하학적 이해의 속도와 접근성을 혁신했다. 이 두 연구는 서로 다른 방향에서 출발했지만, 궁극적으로는 컴퓨터 비전이 단순한 2D 이미지 분류를 넘어, 더 풍부하고 입체적인 세계 이해로 나아가야 한다는 공통된 지향점을 보여주었다.
3.1 ICCV 2011 Marr Prize: 이진 분류를 넘어서
컴퓨터 비전 분야 최고 영예인 Marr Prize를 수상한 Devi Parikh와 Kristen Grauman의 “Relative Attributes“는 속성(attribute) 기반 인식 연구에 새로운 패러다임을 제시했다.6 이전의 속성 기반 연구들은 대부분 ‘털이 있는가?’, ’웃고 있는가?’와 같이 속성의 유무를 판단하는 이진(binary) 분류 문제에 초점을 맞추었다. 그러나 이러한 접근은 현실 세계의 미묘하고 연속적인 변화를 표현하는 데 한계가 있었다. 예를 들어, 희미한 미소와 활짝 웃는 웃음은 모두 ’웃고 있음’으로 분류되지만, 그 의미와 정보량은 전혀 다르다.
“Relative Attributes“는 이러한 이진 분류의 한계를 극복하기 위해, ‘A가 B보다 더 많이 웃고 있다’ 또는 ’이 장면은 저 장면보다 더 자연스럽다’와 같이, 이미지 쌍 간의 속성 강도를 상대적으로 비교하고 학습하는 ’상대적 속성’이라는 개념을 도입했다.32 이는 기계가 세상을 보다 인간과 유사한 방식으로, 즉 절대적인 범주가 아닌 상대적인 비교를 통해 미묘한 차이를 이해하도록 만드는 중요한 철학적, 기술적 전환이었다.
이들의 방법론은 각 속성 m에 대해, 이미지 특징 x를 실수 값으로 매핑하는 랭킹 함수(ranking function) r_m(x) = w_m^T x를 학습하는 것을 목표로 한다. 학습 데이터는 (이미지 i, 이미지 j)가 속성 m에 대해 i가 j보다 더 강한 속성을 가진다는 순서 정보 쌍(O_m)과, 그렇지 않다는 정보 쌍(N_m)으로 구성된다. 연구진은 이를 서포트 벡터 머신 기반의 순위 학습(learning-to-rank) 프레임워크인 RankSVM을 사용하여 모델링했다.34 최적화 문제는 다음과 같이 공식화될 수 있다.32
\min_{w_m, \xi \ge 0} \frac{1}{2} \|w_m\|^2 + C \sum_{(i,j) \in O_m} \sum_{(k,l) \in N_m} \xi_{ijkl}
\text{s.t. } \forall (i,j) \in O_m, \forall (k,l) \in N_m : w_m^T(x_i - x_j) \ge w_m^T(x_k - x_l) + 1 - \xi_{ijkl}
이 최적화는 순서가 지정된 쌍((i,j))의 랭킹 점수 차이가 그렇지 않은 쌍((k,l))의 점수 차이보다 최소 1만큼 크도록 하는 가중치 벡터 w_m을 찾는 것을 목표로 한다. 학습된 랭킹 함수를 통해 어떤 이미지든 특정 속성에 대한 상대적인 강도를 정량화할 수 있게 된다.
이러한 상대적 속성 개념은 두 가지 혁신적인 응용을 가능하게 했다. 첫째, ’Zero-Shot Learning’의 성능을 크게 향상시켰다. 예를 들어, ’얼룩말은 말과 비슷하지만 줄무늬가 더 많다’와 같은 상대적 설명을 통해, 한 번도 본 적 없는 ‘얼룩말’ 클래스를 인식할 수 있게 된다.32 둘째, “이 사진보다 더 햇살이 좋은 사진을 찾아줘“와 같이, 기준 이미지를 제시하며 상대적인 비교를 통해 이미지를 검색하는 새로운 방식의 상호작용을 가능하게 했다.34 이 연구는 시각적 개념을 더 풍부하고 유연하게 표현하는 길을 열었다는 점에서 큰 평가를 받았다.
3.2 실시간 3D 세계의 구현: KinectFusion
“Relative Attributes“가 시각 정보의 의미론적 깊이를 탐구했다면, 마이크로소프트 리서치 캠브리지 팀이 발표한 “KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera“는 시각 정보의 기하학적 차원을 혁신했다.9 이 연구는 저렴한 소비자용 깊이 카메라인 마이크로소프트 Kinect 센서 하나만을 사용하여, 사용자가 카메라를 들고 자유롭게 움직이는 것만으로 실내 공간 전체의 정밀한 3D 모델을 실시간으로 생성할 수 있음을 세계 최초로 입증했다.
KinectFusion의 성공은 두 가지 핵심 알고리즘의 창의적인 결합과 GPU를 활용한 병렬 처리 덕분이었다.35
- Volumetric Signed Distance Function (SDF): 이 시스템은 3D 공간을 작은 정육면체 격자, 즉 복셀(voxel)로 표현한다. 각 복셀에는 가장 가까운 물체 표면까지의 부호화된 거리(signed distance) 값이 저장된다. 카메라에서 새로운 깊이 정보가 들어올 때마다, 각 복셀의 SDF 값은 가중 평균 방식으로 계속 갱신된다. 이 방식은 Kinect 센서에서 발생하는 측정 노이즈와 데이터 누락(holes) 문제를 효과적으로 해결하고, 여러 시점에서 얻은 깊이 정보를 하나의 일관되고 부드러운 3D 표면 모델로 통합하는 역할을 했다.
- GPU 기반 Iterative Closest Point (ICP): 실시간 3D 재구성을 위해서는 카메라의 현재 위치와 방향, 즉 6-DOF(Degrees of Freedom) 포즈(pose)를 매우 빠르고 정확하게 추적해야 한다. KinectFusion은 현재 프레임의 깊이 맵을 이전에 재구성된 3D SDF 모델에 정합(align)시키는 방식으로 카메라의 포즈를 추정했다. 이 정합 과정은 ICP 알고리즘을 통해 이루어졌으며, 전체 계산 과정이 GPU 상에서 대규모 병렬 처리되도록 설계되어 실시간 성능을 확보할 수 있었다.35
KinectFusion은 컴퓨터 비전, 로보틱스, 증강현실(AR), 인간-컴퓨터 상호작용(HCI) 분야에 즉각적이고 거대한 영향을 미쳤다.36 이전까지 고가의 장비와 많은 후처리 시간이 필요했던 3D 스캐닝 작업을, 누구나 저렴한 비용으로 실시간 수행할 수 있게 만들었기 때문이다. 이는 로봇이 주변 환경을 3D로 인식하고 실시간으로 지도를 작성하는 SLAM(Simultaneous Localization and Mapping) 기술의 발전을 가속화했으며, 가상 객체를 실제 공간에 자연스럽게 배치하는 증강현실 애플리케이션의 기반 기술이 되었다. 이처럼 KinectFusion은 하드웨어의 혁신과 정교한 알고리즘이 결합될 때 얼마나 강력한 시너지를 낼 수 있는지 보여준 대표적인 사례로 남았다.
이 두 연구는 2011년 컴퓨터 비전 분야가 당면했던 과제를 명확히 보여준다. “Relative Attributes“는 ’무엇을 보는가’에 대한 의미론적(semantic) 질문에, KinectFusion은 ’어디에 있는가’에 대한 기하학적(geometric) 질문에 답을 제시했다. 이 두 방향의 진보는 이후 현대 컴퓨터 비전 연구의 양대 축, 즉 의미론적 장면 이해(semantic scene understanding)와 3D 기하학 기반 인식(3D geometry-aware perception)으로 발전하며, 오늘날 자율주행차와 로봇이 세상을 인식하는 방식의 근간을 이루게 되었다.
| 상 | 논문 제목 | 저자 | 핵심 아이디어 |
|---|---|---|---|
| Marr Prize (Best Paper) | Relative Attributes | Devi Parikh, Kristen Grauman | 이진 속성을 넘어 객체 간 속성의 상대적 강도를 학습하는 랭킹 기반 프레임워크 6 |
| Best Student Paper | Close the Loop: Joint Blind Image Restoration and Recognition with Sparse Representation Prior | H. Zhang, J. Yang, Y. Zhang, et al. | 희소 표현을 사전 정보(prior)로 활용하여, 손상된 이미지의 복원과 인식을 동시에 수행하는 통합적 접근법 6 |
4. 로봇 공학의 발전: 다개체 시스템과 인간-로봇 상호작용
2011년 4분기 로봇 공학 분야의 연구 동향은 ’실험실 탈출’이라는 키워드로 요약될 수 있다. IROS 2011을 중심으로 발표된 연구들은 통제된 공장 환경을 넘어, 예측 불가능하고 동적인 실제 환경에서 로봇이 마주할 문제들을 해결하는 데 집중했다. 이는 단일 로봇의 정밀한 제어를 넘어, 여러 로봇이 협력하는 다개체 시스템, 복잡한 작업을 유연하게 수행하기 위한 고차원 자유도 활용, 그리고 인간과 물리적으로 협업하는 인간-로봇 상호작용(HRI) 기술의 중요성이 부각되었음을 의미한다. 이러한 연구 방향은 로봇이 인간의 생활 공간으로 들어와 안전하고 유용하게 작동하기 위해 필수적인 기술적 과제들을 정면으로 다루고 있다.
4.1 IROS 2011: 복잡성과의 조우
2011년 IROS 학회는 ’지능형 로봇 50주년’을 기념하며 개최되어, 로봇 공학이 걸어온 길을 반추하고 미래 방향을 제시하는 의미 있는 자리였다.7 학회의 핵심 주제는 복잡성(complexity)의 증가였다. 이는 로봇 자체의 자유도(degree of freedom) 증가와 여러 로봇으로 구성된 다개체 시스템이라는 두 가지 측면에서 두드러졌다.
이러한 경향을 가장 잘 보여준 것은 “로봇 매니퓰레이터 및 다중 로봇 시스템의 여유자유도(Redundancy in Robot Manipulators and Multi-Robot Systems)” 워크숍이었다.7 여유자유도란, 특정 작업을 수행하는 데 필요한 최소한의 자유도보다 더 많은 자유도를 가진 로봇을 의미한다. 예를 들어, 3차원 공간에서 물체의 위치와 자세를 결정하기 위해서는 6자유도가 필요하지만, 인간의 팔은 7자유도를 가지고 있어 여유자유도를 가진다. 이 여분의 자유도는 로봇이 장애물을 피하면서 동시에 원하는 작업을 수행하거나, 에너지 효율을 최적화하는 등 보다 유연하고 지능적인 동작을 생성하는 데 활용될 수 있다.
이 워크숍에서는 당대 최고의 로봇 공학자들이 여유자유도를 활용한 최신 연구를 발표했다. 카네기 멜런 대학의 Howie Choset은 다중 로봇 시스템을 위한 완벽한 경로 계획 알고리즘 ’M*’을 소개했고, MIT의 Daniela Rus는 여러 로봇이 협력하여 구조물을 건설하는 연구를 발표했다. 또한, 서던캘리포니아 대학의 Stefan Schaal 연구팀은 다리 로봇이 보행할 때 접촉력을 최적으로 분배하기 위해 토크 여유자유도를 활용하는 방법을 제시했다.7 이 연구들은 로봇 공학의 관심사가 개별 관절의 정밀 제어에서 시스템 전체의 동적이고 지능적인 최적화 문제로 이동하고 있음을 명확히 보여주었다.
4.2 인간과 로봇의 물리적 협업
로봇이 인간의 공간으로 들어오면서, 인간과의 상호작용은 더 이상 선택이 아닌 필수가 되었다. 특히 IROS 2011에서는 단순한 사회적 상호작용을 넘어, 물리적으로 긴밀하게 결합된(physically-coupled) 협업에 대한 연구가 주목받았다.
B. V. Adorno 등이 발표한 “Interactive manipulation between a human and a humanoid: When robots control human arm motion“은 매우 혁신적인 접근법을 제시했다.37 이 연구에서 휴머노이드 로봇은 인간과 함께 물체를 조작하는 과업을 수행하는데, 단순히 자신의 팔만 제어하는 것이 아니라 기능적 전기 자극(Functional Electrical Stimulation, FES)을 통해 파트너인 인간의 팔 근육을 직접 자극하여 움직임을 제어했다. 눈을 가린 피험자가 로봇의 도움을 받아 ‘고리 안의 공’ 과제를 성공적으로 수행하는 실험을 통해, 이 시스템의 유효성을 입증했다. 이는 로봇이 인간의 신체 능력을 보조하거나 재활 치료를 돕는 새로운 형태의 협업 가능성을 연 선도적인 연구였다. 이처럼 인간과 로봇이 하나의 통합된 시스템처럼 작동하는 연구는 HRI가 지향해야 할 새로운 방향을 제시했다.
4.3 자율 항법 기술의 진화
로봇이 복잡한 실제 환경에서 자율적으로 임무를 수행하기 위한 핵심 기술은 바로 자율 항법, 특히 SLAM(Simultaneous Localization and Mapping)이다. IROS 2011에서는 SLAM 기술의 강인성(robustness)과 확장성(scalability)을 높이기 위한 중요한 연구들이 발표되었다.
미시간 대학의 Ryan M. Eustice 연구팀은 두 편의 중요한 논문을 발표했다. Nicholas Carlevaris-Bianco 등이 발표한 “Visual localization in fused image and laser range data“는 카메라 이미지와 3D 라이다(LiDAR) 센서 데이터를 융합하는 방법을 다루었다.38 카메라는 풍부한 외형 정보를 제공하지만 조명 변화에 취약하고, 라이다는 정밀한 3차원 구조 정보를 제공하지만 외형 정보가 부족하다. 이 연구는 두 센서의 장점을 결합하여, 한 센서가 실패하는 열악한 환경에서도 로봇이 자신의 위치를 강인하게 추정할 수 있는 방법을 제시했다.
같은 연구팀의 Ayoung Kim이 발표한 “Combined visually and geometrically informative link hypothesis for pose-graph visual SLAM…“은 대규모 환경에서의 시각 SLAM 문제를 다루었다.38 로봇이 넓은 지역을 오랫동안 탐사하다 보면, 이전에 방문했던 장소를 다시 인식하고(loop closure) 누적된 오차를 보정하는 것이 매우 중요하다. 이 연구는 Bag-of-Words 모델을 사용하여 이미지의 시각적 유사도와 기하학적 일관성을 함께 고려하는 새로운 루프 폐쇄 기법을 제안하여, 대규모 환경에서 SLAM의 정확도와 신뢰성을 크게 향상시켰다.
이러한 연구들은 로봇 공학 분야가 직면한 도전 과제가 더 이상 개별 기술의 성능 향상에만 머무르지 않음을 보여준다. 다개체 시스템의 복잡한 동역학, 인간과의 예측 불가능한 상호작용, 그리고 대규모 비정형 환경에서의 강인한 인식 및 항법 능력은 모두 ’실험실 밖’의 실제 세계에서 로봇이 마주할 본질적인 문제들이다. 2011년 IROS에서 나타난 이러한 연구 경향은 로봇 공학이 본격적으로 현실 세계의 복잡성과 조우하기 시작했음을 알리는 중요한 이정표였다.
5. 산업계 연구 동향: 구글 브레인과 마이크로소프트 리서치의 약진
2011년은 산업계 연구소가 AI 연구의 지형을 바꾸는 주역으로 급부상한 원년으로 평가할 수 있다. 이전까지 AI 연구는 주로 대학과 국책 연구소를 중심으로 이루어졌으나, 이 해를 기점으로 구글과 마이크로소프트는 막대한 데이터와 컴퓨팅 자원을 바탕으로 학계가 시도하기 어려운 대규모 실험을 감행하며 AI 연구의 새로운 방향을 제시했다. 특히, 구글의 ‘규모 우선(scale-first)’ 접근법과 마이크로소프트의 ‘시스템 우선(systems-first)’ 접근법은 이후 10년간 산업계 AI 연구의 두 가지 주요 흐름을 형성하는 뚜렷한 대조를 보였다.
5.1 구글 브레인 프로젝트의 탄생과 “고양이 인식”
2011년, 구글에서는 Jeff Dean, Andrew Ng, Greg Corrado 등이 주축이 되어 ’구글 브레인(Google Brain)’이라는 심층 학습 연구팀이 결성되었다.2 이들의 목표는 명확했다. 당시 학계에서 가능성을 인정받고 있던 심층 신경망(Deep Neural Network)을 전례 없는 규모로 확장하여, 기계가 데이터로부터 스스로 지식을 학습할 수 있는지 확인하는 것이었다.
이들의 첫 번째 실험은 AI 역사에 길이 남을 기념비적인 성과를 낳았다. 연구팀은 16,000개의 컴퓨터 CPU 코어를 연결하여 당시로서는 상상하기 어려운 규모의 거대한 신경망을 구축했다.2 그리고 이 신경망에 유튜브 동영상에서 무작위로 추출한 1,000만 개의 이미지 썸네일을 입력으로 제공했다. 여기서 핵심은 이 이미지들에 ‘고양이’, ’사람’과 같은 어떠한 레이블도 제공하지 않은, 완전한 비지도 학습(unsupervised learning) 방식으로 진행되었다는 점이다.2
결과는 놀라웠다. 수많은 이미지를 학습한 신경망 내부를 분석한 결과, 특정 뉴런 하나가 오직 고양이 얼굴 이미지에만 선택적으로 강하게 활성화되는 현상이 발견되었다. 즉, 네트워크는 ’고양이’라는 개념을 명시적으로 배우지 않았음에도 불구하고, 데이터에 내재된 통계적 패턴을 통해 스스로 고양이 얼굴을 감지하는 고수준의 특징 탐지기(high-level feature detector)를 ’창발(emerge)’시킨 것이다.2
이 “고양이 인식” 실험의 의미는 단순히 고양이를 인식했다는 사실 자체에 있지 않다. 이는 두 가지 근본적인 패러다임의 전환을 의미했다. 첫째, **규모의 힘(The Power of Scale)**을 증명했다. 충분히 큰 모델과 충분히 많은 데이터가 주어지면, 복잡한 개념이 비지도 방식으로 학습될 수 있음을 보여주었다. 이는 AI의 발전이 알고리즘의 정교함뿐만 아니라 데이터와 컴퓨팅의 규모에 크게 의존한다는 ’규모의 법칙’을 실증한 것이다. 둘째, 특징 공학의 종말을 예고했다. 이전까지 컴퓨터 비전 연구자들은 SIFT, HOG와 같은 특징을 수작업으로 설계하는 데 많은 노력을 기울였다. 구글 브레인의 실험은 이러한 과정 없이도 데이터로부터 직접 유용한 특징을 학습할 수 있음을 보여주어, 표현 학습(representation learning)이 AI의 핵심 방법론으로 자리 잡는 계기를 마련했다.
이후 구글 브레인팀은 스탠포드 대학의 Andrew Ng 연구팀과 협력하여, 이 실험을 GPU 환경에서 재현하는 연구를 진행했다. 그 결과, 단 12개의 NVIDIA GPU가 2,000개의 CPU와 맞먹는 딥러닝 성능을 낼 수 있음을 발견했다.1 이는 딥러닝 연구의 중심 하드웨어가 CPU에서 GPU로 넘어가는 결정적인 전환점이 되었으며, 이후 딥러닝 기술의 폭발적인 성장을 가능하게 한 핵심 동력이었다.
5.2 응용 연구의 선두주자, 마이크로소프트 리서치
구글이 대규모 비지도 학습이라는 AI의 근본적인 문제에 집중했다면, 같은 시기 마이크로소프트 리서치(MSR)는 첨단 연구와 실제 소비자 제품을 결합하여 특정 문제를 해결하는 ‘시스템 통합’ 방식에서 두각을 나타냈다. 그 대표적인 사례가 바로 앞서 3장에서 다룬 KinectFusion이다.9 MSR은 자사의 소비자용 제품인 Kinect를 연구 플랫폼으로 적극 활용하여, 저비용 실시간 3D 인식이라는 새로운 연구 분야를 개척하고 그 기술을 다시 대중에게 환원하는 선순환 구조를 만들어냈다.
로보틱스 분야에서도 MSR의 이러한 실용주의적 접근은 계속되었다. 그들은 ’Microsoft Robotics Developer Studio (RDS)’라는 소프트웨어 플랫폼을 통해 로봇 개발자 생태계를 구축하고자 노력했다.41 2011년 MSR 블로그는 재난 구조 상황에서 RDS를 활용한 로봇 기술의 역할을 조명하며, 위험하고 접근하기 어려운 환경에서 로봇이 인간을 돕는 구체적인 응용 시나리오에 집중했다.41 또한, 노년층을 돕는 서비스 로봇, 인간과 물리적으로 상호작용하는 로봇 등 인간 중심의 환경에서 로봇의 사회적 가치를 탐구하는 연구를 지속했다.42
2011년 구글과 마이크로소프트의 행보는 산업계 AI 연구의 두 가지 상이한 철학을 명확히 보여준다. 구글의 “고양이 인식” 실험은 특정 제품과 직접적인 관련은 없었지만, AI의 근본적인 가능성을 탐구하는 ’규모 우선’의 장기적 투자였다. 이는 결국 거대 언어 모델과 같은 범용 AI 기술의 기반이 되었다. 반면, 마이크로소프트의 KinectFusion과 로보틱스 연구는 특정 문제 해결에 집중하고 하드웨어와 소프트웨어를 긴밀하게 통합하는 ’시스템 우선’의 접근법이었다. 이는 증강현실(HoloLens)이나 구체적인 로봇 응용 분야에서 강점을 발휘하는 기반이 되었다. 이 두 가지 서로 다른, 그러나 상호보완적인 철학은 2011년을 기점으로 본격화되어 이후 10년간 AI 기술 발전을 이끄는 양대 축으로 작용했다.
6. 결론: 2011년 4분기 연구의 의의와 미래 전망
2011년 4분기는 AI 역사에서 ’폭풍 전야’의 고요함과 긴장감이 공존하던 시기였다. 본 보고서에서 분석한 바와 같이, 이 시기에는 이후 10년간의 기술 혁신을 이끌 세 가지 핵심 동력이 뚜렷한 형태로 수렴하고 있었다. 이들의 융합은 2012년 딥러닝 혁명이 폭발적으로 성장할 수 있는 비옥한 토양을 제공했다는 점에서 그 역사적 의의가 매우 크다.
첫 번째 동력은 **확장 가능한 알고리즘(Scalable Algorithms)**의 등장이었다. JMLR에 발표된 AdaGrad는 대규모 희소 데이터를 효율적으로 학습할 수 있는 최적화의 길을 열었고, Collobert와 Weston의 연구는 특징 공학의 한계를 넘어 데이터로부터 직접 표현을 학습하는 신경망 기반 패러다임의 가능성을 입증했다. NIPS에서 발표된 다양한 희소 표현 및 저계급 행렬 분해 연구들 역시 고차원 데이터의 본질을 파고드는 알고리즘적 성숙을 보여주었다.
두 번째 동력은 **대규모 데이터와 컴퓨팅(Big Data & Compute)**의 전면적인 부상이었다. 구글 브레인의 “고양이 인식” 실험은 이전과는 차원이 다른 규모의 데이터와 컴퓨팅 파워가 결합될 때, 기계가 인간의 개입 없이도 세상의 개념을 학습할 수 있다는 충격적인 사실을 증명했다. 이는 AI 연구의 성공 방정식에 ’규모’라는 변수가 핵심적인 역할을 한다는 점을 명확히 했으며, GPU가 딥러닝의 필수 하드웨어로 자리 잡는 계기를 마련했다.
세 번째 동력은 **저비용 고성능 센서(Affordable High-performance Sensors)**의 확산이었다. 마이크로소프트의 KinectFusion은 소비자용 깊이 카메라를 활용하여 전문가 수준의 실시간 3D 재구성 기술을 구현했다. 이는 로봇과 AI 시스템이 디지털 세계를 넘어 물리적 세계와 상호작용하는 방식을 근본적으로 바꾸어 놓았다. 저렴한 비용으로 3차원 공간을 정밀하게 인식할 수 있게 되면서, 로보틱스, 증강현실, HCI 분야의 연구와 응용이 폭발적으로 증가하는 기반이 마련되었다.
결론적으로, 2011년 4분기에 발표된 주요 연구들은 단순히 개별적인 기술적 성과에 그치지 않고, 미래 AI 기술의 핵심적인 사상적, 기술적 뿌리가 되었다.
- “Relative Attributes“에서 제시된 미묘한 의미 차이를 학습하는 아이디어는 오늘날 거대 언어 모델이 문장의 뉘앙스를 이해하고 생성하는 능력으로 이어졌다.
- “Natural Language Processing (Almost) from Scratch“에서 보여준 비지도 표현 학습과 전이 학습의 철학은 BERT와 GPT의 핵심 사상이 되었다.
- KinectFusion이 구현한 실시간 3D 세계 인식은 현재의 자율주행차, 드론, 그리고 메타버스를 위한 공간 컴퓨팅 기술의 원형이 되었다.
- 구글 브레인이 증명한 ’규모의 법칙’은 현재 AI 분야의 가장 지배적인 패러다임으로 자리 잡았다.
2011년은 낡은 패러다임이 저물고 새로운 패러다임이 움트던 전환기였다. 이 시기에 뿌려진 씨앗들은 이후 10년간 무성하게 자라나, 오늘날 우리가 경험하고 있는 인공지능 시대를 열었다. 따라서 2011년 4분기의 연구 동향을 깊이 있게 이해하는 것은 현대 AI 기술의 근원을 파악하고 미래를 전망하는 데 있어 필수적인 과정이라 할 수 있다.
7. 참고 자료
- Accelerating AI with GPUs: A New Computing Model - NVIDIA Blog, https://blogs.nvidia.com/blog/accelerating-ai-artificial-intelligence-gpus/
- Brain - A Google X Moonshot, https://x.company/projects/brain/
- 2011 Conference - NeurIPS 2025, https://neurips.cc/Conferences/2011
- Conference on Neural Information Processing Systems - Wikipedia, https://en.wikipedia.org/wiki/Conference_on_Neural_Information_Processing_Systems
- David Lowe Wins 2011 ICCV Test-of-Time Award | Computer Science at UBC, https://www.cs.ubc.ca/news/2011/11/david-lowe-wins-2011-iccv-test-time-award
- ICCV Paper Awards - IEEE Computer Society Technical Committee on Pattern Analysis and Machine Intelligence, https://tc.computer.org/tcpami/awards/iccv-paper-awards/
- IROS 2011 - UC Santa Cruz, https://people.ucsc.edu/~dmilutin/iros2011.html
- IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2011) Student Travel Awards - CPS-VO, https://cps-vo.org/node/23810
- KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera, https://www.microsoft.com/en-us/research/video/kinectfusion-real-time-3d-reconstruction-interaction-using-moving-depth-camera/
- Adaptive Subgradient Methods for Online Learning and Stochastic Optimization∗, https://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf
- Adaptive Subgradient Methods for Online Learning and Stochastic Optimization, https://jmlr.org/papers/v12/duchi11a.html
- JMLR Volume 12 - Journal of Machine Learning Research, https://jmlr.org/papers/v12
- Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction | Request PDF - ResearchGate, https://www.researchgate.net/publication/373106014_Adaptive_SGD_with_Polyak_stepsize_and_Line-search_Robust_Convergence_and_Variance_Reduction
- Three Operator Splitting with Subgradients, Stochastic Gradients, and Adaptive Learning Rates | Request PDF - ResearchGate, https://www.researchgate.net/publication/355142324_Three_Operator_Splitting_with_Subgradients_Stochastic_Gradients_and_Adaptive_Learning_Rates
- Top 152 Journal of Machine Learning Research papers published in 2011 - SciSpace, https://scispace.com/journals/journal-of-machine-learning-research-2d0yw8cg/2011
- Natural Language Processing (Almost) from Scratch - Journal of Machine Learning Research, https://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf
- [1103.0398] Natural Language Processing (almost) from Scratch - arXiv, https://arxiv.org/abs/1103.0398
- papers:collobert-2011 [leon.bottou.org], https://leon.bottou.org/papers/collobert-2011
- arXiv:1103.0398v1 [cs.LG] 2 Mar 2011, https://arxiv.org/pdf/1103.0398
- Natural Language Processing (almost) from Scratch, https://courses.grainger.illinois.edu/cs546/sp2020/Slides/Lecture16.pdf
- Natural Language Processing (almost) from Scratch - Google Research, https://research.google.com/pubs/archive/35671.pdf
- JMLR Volume 12 - Journal of Machine Learning Research, https://www.jmlr.org/papers/v12/
- (PDF) Scikit-learn: Machine Learning in Python - ResearchGate, https://www.researchgate.net/publication/51969319_Scikit-learn_Machine_Learning_in_Python
- Scikit-learn: Machine Learning in Python, https://jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf
- Scikit-learn: Machine Learning in Python, https://www.jmlr.org/papers/v12/pedregosa11a.html
- Scikit-Learn: Machine Learning in the Python ecosystem - ORBi, https://orbi.uliege.be/bitstream/2268/157487/1/sklearn-nips-mloss.pdf
- scikit-learn: machine learning in Python — scikit-learn 1.7.2 documentation, https://scikit-learn.org/
- Advances in Neural Information Processing Systems 24 (NIPS 2011), https://proceedings.neurips.cc/paper/2011
- NIPS 2011 Awards - NeurIPS 2025, https://neurips.cc/Conferences/2011/Awards
- Awards & Honors | Department of Computer Science, https://www.cs.utexas.edu/news-categories/awards-honors?page=23
- Best Papers | ML (Machine Learning) at Georgia Tech, https://ml.gatech.edu/best-papers
- (PDF) Relative attributes - ResearchGate, https://www.researchgate.net/publication/221111179_Relative_attributes
- [PDF] Relative attributes - Semantic Scholar, https://www.semanticscholar.org/paper/Relative-attributes-Parikh-Grauman/23e568fcf0192e4ff5e6bed7507ee5b9e6c43598
- Relative Attributes, https://vision.cs.utexas.edu/381V-spring2016/slides/saran-paper.pdf
- KinectFusion: Real-Time Dense Surface Mapping and Tracking - Microsoft, https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ismar2011.pdf
- A Review on Technical and Clinical Impact of Microsoft Kinect on Physical Therapy and Rehabilitation, https://pmc.ncbi.nlm.nih.gov/articles/PMC4782741/
- IROS 2011 | Philippe Fraisse Homepage - LIRMM, https://www.lirmm.fr/~fraisse/archives/88
- Publications - PeRL: The Perceptual Robotics Laboratory at the University of Michigan, https://robots.engin.umich.edu/Publications/
- Jeffrey Dean - Google Research, https://research.google/people/jeff/
- An Overview of Google Brain and Its Applications | Request PDF - ResearchGate, https://www.researchgate.net/publication/325480364_An_Overview_of_Google_Brain_and_Its_Applications
- Microsoft Robotics Developer Studio Archives - Microsoft Research, https://www.microsoft.com/en-us/research/blog/tag/microsoft-robotics-developer-studio/
- Applied Robotics Research - Microsoft, https://www.microsoft.com/en-us/research/group/applied-robotics-research/